Convergencia en tiempo finito del Q-learning robusto distribucional
Descubre cómo el Q-learning robusto con aproximación lineal converge en tiempo finito bajo incertidumbre chi-cuadrado, usando solo trayectorias markovianas.
Descubre cómo el Q-learning robusto con aproximación lineal converge en tiempo finito bajo incertidumbre chi-cuadrado, usando solo trayectorias markovianas.
Aprende a calibrar la robustez en tus decisiones con garantías de muestra finita mediante control de riesgo conforme inverso. Optimiza el equilibrio entre coste y riesgo.
Descubre cómo el transporte óptimo puede ser justo para grupos. Nuevo algoritmo Sinkhorn, relajaciones y equilibrio entre equidad y coste.
Descubre los nuevos límites de convergencia no asintóticos para Engression y Reverse Markov Engression. Resultados casi óptimos para aprendizaje de distribuciones condicionales con redes profundas.